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【摘要 】 背景 ” 颈 动 脉 粥 样 硬化 ( CAS ) 常 被 视 为 心血 管 疾 病 (CVD ) 的 预警 信号 ， 其 诊断 技术 颂 动 脉 多 普 勒 
超声 检查 没有 被 纳入 公共 卫生 服务 项 目 ， 同 时 弗 雷 明 汉 风险 评分 (FRS ) 存在 着 评估 CAS 风险 准确 性 不 足 的 情况 ， 
不 利于 基层 医疗 人 员 识 别 CAS。 目 前 ， 关 于 机 器 学 习 方 法 识别 FRS 中 高 风险 人 群 CAS 的 研究 依然 缺乏 。 目 的 ”运用 
机 器 学 习 方 法 构建 FRS 中 高 风险 人 群 CAS 预测 模型 ， 比 较 其 判别 效能 ， 筛 选 出 性 能 最 优 的 模型 ， 以 期 辅助 基层 医疗 
人 员 更 简便 更 准确 地 识别 CAS。 方法 ”选取 2019 一 2021 年 和 2023 年 在 广西 壮族 自治 区 柳州 市 两 乡镇 符合 纳 排 标准 的 
674 例 当地 居民 作为 研究 对 象 。 收 集 相关 信息 ， 并 采集 空腹 血样 、 尿 样 检测 生化 指标 。 采 用 FRS 评估 CVD 发 生 风险 ; 
运用 颂 动 脉 超声 诊断 CAS。 将 2019 一 2021 年 517 例 研 究 对 象 按 照 8 : 2 随机 分 为 训练 集 和 验证 集 ， 训 练 集 用 于 构建 
Logistic 回归 、 随 机 森林 ( RF ) 、 支 持 问 量 机 ( SVM ) 、 极 端 梯度 增强 ( XGBoost ) 模型 和 梯度 增强 决策 树 ( GBDT ) 模型 ， 
验证 集 用 于 内 部 验证 ; 2023 年 157 例 研究 对 象 作为 测试 集 ， 用 于 外 部 验证 。 通 过 Lasso 回归 分 析 筛 选 特征 变量 ， 运 用 
灵敏 度 、 特 异 度 、 准 确 度 、F1 值 和 曲线 下 面积 (AUC ) 值 评价 判别 效能 ， 外 部 验证 采用 AUC 值 评价 最 优 模型 泛 化 能 力 ， 
并 通过 Shapley Additive exPlanation ( SHAP ) 方法 探讨 影响 最 优 模型 识别 CAS 的 重要 变量 。 结 果 ”通过 Lasso 回归 ， 筛 
选 出 15 个 非 零 特征 变量 : 年 龄 、BMI、 收 缩 压 (SBP ) 、 吸 烟 、 饮 酒 、 高 血压 、 总 胆固醇 、 高 密度 脂 蛋 白 胆固醇 、C- 反 
应 蛋白 (CRP ) 、 空 腹 血 糖 、 载 脂 蛋 白 B ( ApoB ) 、 脂 蛋白 a (LPA ) 、 天 冬 氮 酸 氮 基 转 移 酶 (AST ) 、AST/ 丙 氨 酸 氨 
基 转 移 酶 、 尿 微量 白 蛋 白 肌 栈 比 值 。 构 建 的 Logistic 回归 、RF、SVM、XGBoost 模型 和 GBDT 模型 的 AUC 值 均 较 高 ， 
其 中 GBDT 模 型 的 判别 性 能 最 优 , 其 灵敏 度 、 特 异 度 、 准 确 度 、 Fl 值 和 AUC 值 分 别 是 0.755 1、0.836 4、0.798 1、0.778 9、 
0.834 9， 外 部 验证 AUC 值 为 0.794 0。SHAP 方法 发 现年 龄 、SBP、CRP、LPA 、ApoB 是 影响 GBDT 模型 识别 CAS 排名 
前 5 的 因素 。 结 论 ”基于 机 器 学 习 识别 CAS 的 Logistic 回归 、RF、SVM、XGBoost 模 型 和 GBDT 模型 均 显示 出 较 高 的 
判别 性 能 ， 其 中 GBDT 模型 综合 判别 效能 最 佳 ， 同 时 具有 较 强 的 泛 化 能 力 。 
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[Abstract] Background Carotid atherosclerosis ( CAS ) is often considered an early warning signal for cardiovascular 
diseases (CVD ) . The diagnostic technique of carotid artery Doppler ultrasonography has not been included in public health 
service programs, and the Framingham Risk Score ( FRS ) lacks accuracy in assessing CAS risk, hindering the identification of 
CAS by primary healthcare personnel. Currently, there is a lack of research on machine learning methods to identify CAS in the 


medium—high risk population assessed by FRS. Objective To construct a CAS risk prediction model for the medium-high risk 
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population assessed by FRS using machine learning methods, compare its discriminative efficacy, select the optimal model, and 
assist primary healthcare personnel in identifying CAS more conveniently and accurately. Methods A total of 674 local residents 
from two townships in Liuzhou City, Guangxi Zhuang Autonomous Region, who met the inclusion criteria from 2019 to 2021 and 
2023 ，were selected as the study subjects. Relevant information was collected, and biochemical indicators were measured in 
fasting blood and urine samples. FRS was used to assess the risk of CVD occurrence，and carotid ultrasound was used to diagnose 
CAS. Among the $517 subjects from 2019 to 2021, arandom 8 
training set was used to build Logistic regression, Random Forest (RF ) , Support Vector Machine (SVM ) , Extreme Gradient 


: 2 split was used to create a training set and a validation set. The 


Boosting ( XGBoost ) ，and Gradient Boosting Decision Tree ( GBDT ) models, while the validation set was used for internal 
validation. The 157 subjects from 2023 served as the test set for external validation. Feature variables were selected using Lasso 
regression analysis, and discriminative efficacy was evaluated using sensitivity, specificity, accuracy, Fl score, and area 
under curve ( AUC ) value. External validation assessed the generalization ability of the optimal model using AUC value, and the 
Shapley Additive exPlanation (SHAP ) method explored the important variables influencing the optimal model's identification 
of CAS. Results Lasso regression analysis identified 15 feature variables: age, BMI, systolic blood pressure ( SBP ) ， 

smoking, drinking, hypertension, total cholesterol, high density lipoprotein cholesterol, C-reactive protein ( CRP ) , fasting 
plasma glucose, apolipoprotein B ( ApoB ) , lipoprotein (a) (LPA ) , aspartate aminotransferase ( AST) , AST/ alanine 
aminotransferase, urinary microalbumin creatinine ratio. The constructed Logistic regression, RF, SVM, XGBoost, and 
GBDT models exhibited high AUC values, with the GBDT model showing the best discriminative performance. Its sensitivity, 

specificity, accuracy, Fl score, and AUC value were 0.755 1, 0.836 4, 0.798 1, 0.778 9, and 0.834 9, respectively, and 
the external validation AUC value was 0.794 0. The SHAP method revealed that age, SBP, CRP, LPA, and ApoB were the top 
five factors influencing the GBDT model’s identification of CAS. Conclusion Logistic regression, RF, SVM, XGBoost, and 
GBDT models for identifying CAS based on machine learning all demonstrated high discriminative performance, with the GBDT 
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model exhibiting the best comprehensive discriminative efficacy and strong generalization ability. 
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乡 居 民主 要 死亡 原因 之 一 ， 其 发 病 率 和 死亡 率 仍 在 不 
断 上 升 ， 是 中 国 居民 的 首要 健康 危险 因素 '" 。 动 脉 
呢 样 硬化 是 CVD 的 主要 病理 基础 ， 其 中 有 代 动脉 往往 
是 最 早 受 累 的 部 位 ， 因 此 ， 有 颂 动 脉 弦 样 硬 化 (carotid 
atherosclerosis, CAS ) 通常 被 认为 是 CVD 的 预警 信忠" 四 
在 诊断 方面 ， 多 普 勒 超声 检测 颈 动 脉 内 - 中 膜 厚 度 
( carotid intima-media thickness，CIMT ) 是 判断 CAS 病 
变 程度 的 可 靠 技术 。2009 年 以 来 ， 基 本 公共 卫生 服 
务 项 目 在 不 断 “ 扩 容 ”， 到 2019 年 增加 到 12 类 服务 项 
目 扩 ， 但 颈 动 脉 多 普 勒 超声 检查 并 没有 被 纳入 其 中 ， 
不 能 满足 CVD 早期 防治 的 需求 ; 弗 雷 明 汉 风险 评分 
(Framingham Risk Score，FRS ) 是 被 广泛 应 用 的 一 种 心 
血管 风险 评估 方法 ,但 其 存在 着 评估 CAS 风险 准确 怕 
不 足 的 情况 ' “I ， 可 能 会 导致 基层 医疗 人 员 不 能 准确 识 
别 CAS。 因 此 ， 亚 需 探 索 更 简便 有 效 的 方法 以 早期 识别 
CAS。 近 年 来 越 来 越 多 学 者 采用 机 器 学 习 通 过 容易 获取 
的 因素 对 疾病 进行 识别 ， 在 个 体 自 测 和 临床 应 用 上 均 取 
得 良好 的 效果 。 

目前 ， 关 于 机 器 学 习 识别 FRS 中 高 风险 群体 CAS 
的 研究 报道 相对 较 少 ， 为 加 强 这 一 方面 的 研究 ， 本 研究 
选用 Logistic 回归 、 随 机 森林 ( Random Forest，RF ) 、 


mT 


度 增强 ( Extreme Gradient Boosting, XGBoost ) 和 梯度 增 
强 决 策 树 (Gradient Boosting Decision Tree, GBDT ) 构 
建 FRS 中 高 风险 群体 (FRS>6% ) CAS 预测 模型 ， 并 得 
选 出 最 优 模型 ,以 期 辅助 基层 医疗 人 员 更 简便 、 更 准确 、 
更 早 地 识别 CAS， 为 临床 防治 工作 提供 科学 依据 。 


1 对 象 与 方法 


1.1 研究 对 象 

采用 方便 抽样 法 ， 于 2019 一 2021 年 和 2023 年 在 广 
西 壮 族 自治 区 柳州 市 两 个 乡镇 选取 当地 居民 1 169 例 作 
为 研究 对 象 ， 其 中 2019 一 2021 年 852 例 居民 用 于 模型 
构建 及 内 部 验证 ，2023 年 317 例 居民 用 于 外 部 验证 。 
纳入 标准 : (1) 30~74 岁 ; (2) FRS>6%; (3 ) 接受 
颈 动 脉 多 普 勒 超声 检查 。 排 除 标准 : (1) 患 有 重大 疾 
病 的 个 体 ， 如 恶性 肿瘤 、 严 重 感染 性 疾病 、 精 神 疾 病 
等 ; (2 ) 已 被 确诊 为 冠 心病 、 脑 潜 中 或 外 周 动脉 疾病 ; 
(3 ) 协 变量 存在 缺失 。 基 于 纳 排 标准 ， 最 终 纳入 674 
例 (2019 一 2021 年 : 517 例 ; 2023 年 : 157 例 ) 符合 条 
件 的 研究 对 象 。 本 研究 经 广西 医科 大 学 伦理 委员 会 批准 
(2019-SB-094 ) ， 研 究 对 象 均 已 签署 知情 同意 书 。 
1.2 ”研究 方法 
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1.2.1 一 般 资料 : 通过 课题 组 自行 设计 的 问卷 收集 研究 
对 象 的 性 别 、 年 龄 、 民 族 、 受 教育 程度 、 体 力 活 动 、 吸 
烟 史 、 饮 酒 史 、 疾 病史 和 药物 使 用 情况 等 。 体 格 检查 主 
要 包括 BMI 腰围 心率 .收缩 压 (SBP ) 及 舒张 压 ( DBP )。 
实验 室 检 查 指标 包括 总 胆固醇 (TC ) 、 三 酰 上 甘油 (CTG ) 、 
低 密 度 脂 蛋白 胆固醇 (LDL-C ) 、 高 密度 脂 蛋 白 胆 固 醇 
(HDL-C ) 、 空 腹 血 糖 (FPG ) 、 尿 微量 白 蛋 白 ( ALB ) 、 
C- 反 应 蛋白 (CRP )、 尿 肌 酥 (UCR )、 脂 和 蛋白 a( LPA )、 
载 脂 蛋 白 A (ApoA ) 、 载 脂 蛋 白 B (ApoB ) 、 丙 氨 酸 
氨基 转移 酶 (ALT ) 及 天 冬 氨 酸 氮 基 转移 酶 (AST ) ， 
并 计算 尿 微量 白 蛋 白 肌 本 比值 (ACR ) =ALB/UCR。 体 
力 活 动 按 国际 体力 活动 问卷 ( 短 卷 ) "计算 体力 活动 
当量 ， 以 代谢 当量 ( MET-min/w ) 表示 。 
1.2.2 FRS 标准 : 本 人 研究 使 用 FRS 评估 人 和 群 CVD 风险 ， 
将 FRS>6% 定义 为 CVD 中 高 风险 | 。 
1.2.3 CAS 诊断 : CAS 定义 为 CIMT 增加 三 1 mm 或 斑 
块 形成 "1 。CIMT 的 定义 及 详细 测量 方法 详 见 先前 的 
研究 。 斑 块 定义 为 侵犯 动脉 管 腔 至 少 0.5 mm 或 周转 
CIMT 值 的 50% 的 局 灶 性 结构 ， 或 CIMT>1.5 mm 2 。 
由 专业 的 超声 医师 负责 人 颈 动 脉 多 普 勒 超声 检查 ， 经 专 
业 化 培训 的 调查 人 员 负 责 相 应 数据 的 记录 。 根 据 CAS 
诊断 结果 将 517 例 居民 分 为 两 组 : 正常 组 (272 例 ) 和 
CAS 组 (245 例 )。 
1.2.4 相关 定义 : (1) 吸烟 ， 从 未 吸烟 为 总 吸烟 量 
<100 支 ; 曾经 吸烟 为 >100 支 但 调查 前 30 d 未 吸烟 ; 当 
前 吸烟 为 >100 支 且 调查 前 30 d 吸烟 '“”! 。 (2 ) 饮酒 ， 
从 未 饮酒 为 饮酒 <12 个 标准 饮酒 单位 ; 曾经 饮酒 为 既往 
饮酒 三 12 个 标准 饮酒 单位 但 最 近 1 年 饮酒 <1 个 标准 饮 
酒 单位 ; 当前 饮酒 为 既往 饮酒 二 12 个 标准 饮酒 单位 且 
最 近 1 年 饮酒 = 1 个 标准 饮酒 单位 及 以 上 。 (3) 
肾 功能 按 慢 性 肾脏 病 流行 病 学 协作 公式 计算 估算 肾 小 
球 滤 过 率 ( estimated glomerular filtration rate, eGFR ) ， 
eGFR 三 90 mL min (1.73 mr ) 定义 为 肾 功 能 正常 ; 
eGFR<90 mL.min1. (1.73 m? )-! 定 义 为 肾 功 能 下 降 '']。 
(4) 高 血压 : 参照 《中 国 高 血压 防治 指南 (2018 年 修 
订 版 ) 》，SBP = 140 mmHg (1 mmHg=0.133 kPa ) 和 
/或 DBP = 90 mmHg、 既 往 诊断 为 高 血压 或 正在 服用 降 
压 药物 者 '“| 。 (5 ) 糖尿 病 定义 为 本 次 调查 FPG > 7.0 
mmol/L， 或 自述 有 正在 服用 降 糖 药 或 患 有 糖尿 病 7 。 
(6) 脂 代 谢 异 常 TC = 200 mg/dL、TG = 150 mg/ 
dL、LDL-C := 130 mg/dL、HDL-C<40 mg/dL、 正 在 使 用 
降 脂 药物 ， 满足 任 意 1 项“”i。 (7) 代谢 综合 征 依 据 
国际 糖尿 病 联 盟 对 代谢 综合 征 的 定义 '” 。 (8) 疾病 
一 级 亲属 家 族 史 ， 一 级 亲属 ( 父亲 、 母 亲 、 兄 弟 姐 妹 、 
儿子 、 女 儿 ) 中 至 少 有 1 人 患 该 疾病 "1 。 
1.3 ”模型 构建 
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运用 Python 3.7.4 的 scikit-learn 2.2.2 库 构建 模型 。 
将 Lasso 回归 筛选 出 来 的 特征 变量 (连续 变量 进行 归 
一 化 处 理 ) 作为 输入 变量 ， 以 CAS 作为 结局 变量 ,使 
用 scikit-learn 2.2.2 中 train_test_split 模块 将 全 部 样本 按 
照 8 : 2 随机 分 为 训练 集 和 验证 集 ， 并 保持 划分 后 的 数 
据 集中 阳性 和 阴性 病例 之 间 比 例 与 全 部 数据 集中 的 一 
致 ， 在 训练 集中 分 别 使 用 Logistic Regression 、Random 
Forest Classifier、SVC、 XGBClassifier 、Gradient Boosting 
Classifier 模块 构建 Logistic 回 归 、RF、SVM、XGBoost 
模型 和 GBDT 模 型 ， 采 用 GridSearchCV 模块 ( 网 格 搜 
索 算 法 ) 对 每 个 模型 进行 参数 调 优 , 将 曲线 下 面积 ( area 
under curve，AUC ) 值 作为 评价 指标 。 在 验证 集中 采用 
灵敏 度 、 特 异性 、 准 确 度 、F1 值 、AUC 值 评 估 5 种 模 
型 的 判别 性 能 ， 筛 选 最 优 模型 。 在 测试 集中 对 最 优 模 型 
进行 外 部 验证 ， 采 用 AUC 值 评估 模型 的 泛 化 能 
使 用 Shapley Additive exPlanation (SHAP ) 方法 探 
讨 每 个 特征 变量 对 最 优 预 测 模型 的 具体 影响 。 
1.4 统计 学 方法 

采用 R (4.1.3 ) 进行 统计 分 析 。 计 量 资料 符合 正 态 
分 布 的 以 (x+s ) 表示 ， 两 组 间 比 较 采 用 独立 样本 ; 检 
验 ; 计量 资料 不 符合 正 态 分 布 的 以 M ( Ps，P;s ) 表示 ， 
两 组 间 比 较 采 用 Mann-Whitney U 检验 ; 计数 资料 以 相 
对 数 表 示 , 两 组 间 比 较 采 用 X 检验。 以 CAS 为 因 变 量 ， 
使 用 Lasso 回归 分 析 筛 选 特征 变量 。 绘 制 各 模型 在 验证 
集中 识别 CAS 的 受 试 者 工作 特征 (ROC ) 曲线 ， 计 算 
各 模型 的 AUC 值 并 比较 。 以 P<0.05 为 差异 有 统计 学 意 
义 。 
2 结果 


2.1 ”一般 资料 

517 例 居民 中 男 210 例 ( 40.6% )、 女 307 例 (59.4% ) ， 
平均 年 龄 (60.2+7.9) ，CAS 诊断 245 例 (47.4% ) 、 
正常 诊断 272 例 (52.6% ) 。 两 组 间 性 别 、 民 族 、 受 教 
育 程 度 、 上 腰围 、 心 率 、DBP、 吸 烟 史 、 饮 酒 史 、 糖 尿 病 、 
体力 活动 、FPG、TC、LDL-C、 脂 代谢 异常 、 代 谢 综合 征 、 
ApoA、 ApoB、ApoA/ApoB、ALT、AST、UCR、ALB.、 
ACR 比较 , 差异 均 无 统计 学 意义 ( P>0.05 ); 两 组 间 年 龄 、 
BMI、SBP、 高 血压 、HDL-C、TG、 肾 功能 、CRP、 
LPA、AST/ALT 比较 ， 差 异 均 有 统计 学 意义 ( P<0.05 ) ， 
见 表 1。 
2.2 Lasso 回归 筛选 特征 变量 

以 居民 是 否 诊 断 为 CAS 为 因 变 量 ， 以 36 个 可 能 
的 影响 因素 为 自 变量 进行 Lasso 回归 模型 筛选 变量 。 其 
中 分 类 变量 赋值 表 见 表 2， 年龄、 心率、 腰围 、BMI、 
体力 活动 、SBP、DBP、FPG、TC、HDL-C、LDL-C、 
TG、 CRP、 LPA、ApoA、ApoB、ApoA/ApoB、UCR.、 
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表 1 两 组 研究 对 象 一 般 资 料 比较 
Table1 Comparison of general information between two groups 
组 出 例 数 性 别 [ 例 (%) ] 年龄 民族 [ 例 (%) ] 受 教育 程度 [ 例 (%) ] BM _ 屋 因 心率 [M(B;， 
男 女 (zt5, 岁 ) 汉族 ”其 他 民族 初中 及 以 下 高 中 及 以 上 (x+s, kgm) (zts cm) Ps), bpm] 
正常 组 272 108(39.7) 164(60.3) 569+72 182(669) 90(33.1) 247(90.8) 25(9.2) 24.5+3.2 84.8+87 79.0(71.0, 89.0) 
CAS 组 245 102(41.6) 143(58.4) 63.9+7.1 158(64.5) 87(35.5) 225(91.8) 20(82) 23.5+3.3 83.4+93 80.0 (72.0, 88.0) 
检验 统计 量 值 0.198 -11.145 0.237 0.71 3.544， 75 -0.780 
P 值 0.656 <0.001 0.627 0.679 <0.001 0.080 0.435 
组 别 SBP [M (Ps, DBP(x+s, 吸烟 史 [ 例 (%) ] 饮酒 史 [ 例 (%) ] 高 血压 [ 例 (%) ] 糖尿 病 [ 例 (%) ] 
Ps) ,mmHs] mmHs) ”从 不 吸烟 ”曾经 吸烟 “当前 吸烟 ”从 不 饮酒 ”曾经 饮酒 ”当前 饮酒 。 ” 否 是 否 是 
正常 组 140(130, 153) 83412 19%6(72.1) 32(11.8) 44(161) 135(49.6) 44(162) 93(342) 112(41.2) 160(58.8) 230(84.6) 42 (15.4) 
CAS 组 ”147(134, 162) 82+13 161(657) 37(15.1) 47(192) 125(51.0) 35(143) 85(347) 76(31.0) 169(69.0) 211(86.1) 34(13.9) 
检验 统计 量 值 -3.644 0.998" 2.489” 0.360 5.745" 0.251 
P 值 <0.001 0.319 0.288 0.835 0.017 0.616 
外 别 体力 活动 [UL (Ps, Ps) ， FPG[M(Ps, TC(zts, HDLCIN(Ps, IDLC[M(Ps, TG[M (Ps, Ps), 脂 代谢 异常 [ 例 (%) ] 
MET-min/w ] P;s) , mmol | mg/dL ) Ps), mg/dL | P;s) , mg/dL | mg/dL ] 否 是 
正常 组 ”5643.0 (3707.3, 8325.8) 5.58 (5.2, 6.1) 213.1+410 54.5 (47.1, 63.8) 118.9 (96.1, 1393) 161.7(114.9, 222.8) 55(202) 217(79.8) 
CAS 组 ” 5418.0 (3360.0, 9039.0) 5.59(5.3, 63) 215.2+382 56.1(48.7, 69.6) 1199(97.1, 141.9) 145.3(98.3, 194.9) 54(22.0) 191(78.0) 
检验 统计 量 值 -0.080 -1.097 -0.622" -2.243 -0.409 -2.528 0.257" 
P 值 0.937 0.273 0.534 0.025 0.683 0.011 0.612 
组 别 代谢 综合 征 [ 例 (%) ] 肾 功 能 [ 例 (%) ] CRP [M (P,, ApoA [M (P;, ApoB ApoA/ApoB 
否 是 正 党 下 降 py ne BB) eb (x+s, 号) [WA | 
正常 组 146 (53.7) 126 (46.3) 132 (48.5) 140(51.5) 1.0 (0.5, 2.1) 1.6 (1.5, 1.8) 1.1+0.3 14 (11, 1.8) 
CAS 组 143 (58.4) 102(41.6) 80 (32.7) 165 ( 67.4) 0 7 (LS, 10) 1.1+0.3 any 0) 
检验 统计 量 值 1.15 13.430 -2.878 -1.234 -0.148" -0.621 
P 值 0.283 <0.001 0.004 0.217 0.883 0.535 
J 
正常 组 126.7 (63.9, 244.3) 13.0(9.4, 19.0) 24.6(21.4, 30.0) 1.9 (1.4, 2.5) 13 (0.9, 1.7) 11.7 (52, 227) 89(4.4, 17.6) 
CAS 组 166.2 (74.0, 322.0) 123(9.0, 17.6) 25.5(22.0, 319) 2.0(1.6, 2.6) 1.2 (0.9, 1.6) mo(Gl, m0) 05(531, m8) 
检验 统计 量 值 -2.584 =1:151 -1.612 -2.561 -0.653 -1.179 -1.281 
P 值 0.010 0.250 0.107 0.010 0.514 0.239 0.200 
注 : CAS= 颁 动 脉 粥 样 硬 化 ，SBP= 收缩 压 ，DBP= 舒张 压 ，FPC= 空腹 血糖 ，TC= 总 胆固醇 ，HDL-C= 高 密度 脂 蛋 白 胆固醇 ，LDL-C= 低 密度 


蛋白 胆固醇 ，TG= 三 本 
ALT= 丙 氨 酸 和 氨基 转移 酶 ， 


甘油 ，CRP=C- 反应 蛋白 ，ApoA= 载 脂 蛋白 A，ApoB= 载 脂 蛋 


白 B，ApoA/ApoB= 载 脂 蛋 白 A/ 载 和 蛋白 


B，LPA= 脂 蛋 


白 a， 


AST= 天 冬 氮 酸 氮 基 转移 酶 ，AST/ALT= 天 冬 氮 酸 氨基 转移 酶 / 丙 氨 酸 氨基 转移 酶 ，UCR= 


ACR= 尿 微量 白 和 蛋白 肌 栈 上 


上 值 ; “为 x 2 检验, “为 上 值 ， 余 检验 统计 量 值 为 Z 值 ; 1 mmHg=0.133 kPa。 


尿 肌 栈 ，ALB= 


尿 微量 白 蛋 白 ， 


ALB、ALT、AST、AST/ALT、ACR 均 为 实测 值 。 最 终 
筛选 出 15 个 非 零 系 数 变量 : 年 岭 、BMI、SBP、 吸 烟 、 
饮酒 、 高 血压 、TC、HDL-C、CRP、FPG、ApoB、 
LPA、AST、AST/ALT、ACR (图 1 和 表 3) 。 
2.3 ”构建 机 器 学 习 模型 

将 Lasso 回归 筛选 出 的 变量 纳入 Logistic 回归 、 
RF、SVM、XGBoost 模 型 及 GBDT 模 型 通过 网 
格 搜索 方法 ， 以 AUC 值 作 为 评价 指标 ， 在 训练 集 
中 确定 每 个 模型 的 最 优 参 数 分 别 为 Logistic 回归 : 


solver= “liblinear” , max_iter=500, penalty= “12” ; 


RF: n_estimators=S00, criterion= “gini” 


bootstrap=True, max_depth=20, max_features= “auto”,， 


min_samples_leaf=2, min_samples_split=2; SVM: 
kernel= “rbf” , C=1, gamma=0.01; XGBoost 模 型 : 
learning_rate=0.007，n_estimators=300，max_depth=2， 
min_child_weight=8, gamma=0.8, subsample=0.8,， 
colsample_bytree=0.8, objective= “binary:logistic” ， 
nthread=4; GBDT 模 型 : n_estimators=500， learning_ 
rate=0.008, max_depth=2, subsample=0.8, max_ 
features= “sqrt” , min_samples_split=5, min_samples_ 
leaf=2, random_state=1117。 
2.4 各 模型 对 CAS 的 判别 性 能 比较 

将 构建 的 Logistic 回归 、RF、SVM、XGBoost 模型 
和 GBDT 模型 在 验证 集中 进行 内 部 验证 ， 结 果 显 示 各 模 
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型 的 AUC 值 均 较 高 。 其 中 SVM 的 AUC 值 最 高 ，GBDT 
模型 灵敏 度 、 特异 度 、 准确 度 和 F1 值 均 最 高 。 综合 评价 ， 
GBDT 模型 的 判别 性 能 最 优 ， 见 图 2、 表 4。 
2.5 ”模型 外 部 验证 

对 内 部 验证 中 性 能 最 佳 的 GBDT 模型 进行 外 部 验 
证 ， 测 试 模 型 的 泛 化 能 力 。 结 果 显 示 ，GBDT 模型 外 部 
验证 集中 的 AUC ( 0.794 0 ) 较 内 部 验证 集 (0.8349 ) 有 
所 下 降 ， 但 仍 >0.7， 提 示 本 研究 构建 的 GBDT 模型 具有 
较 强 的 外 部 泛 化 能 力 。 
2.6 SHAP 方法 探讨 最 优 模型 的 解释 性 

在 图 3A 中 ， 按 平均 绝对 SHAP 值 排序 ， 展 示 了 影 
响 模 型 识别 CAS 的 因素 。 这 有 助 于 直观 地 理解 每 个 因 
素 对 模型 识别 的 贡献 程度 。 在 图 3B 中 ,y 轴 显示 了 每 
个 变量 的 重要 性 ， 最 重要 的 变量 位 于 图 表 顶 部 ， 最 不 重 
要 的 变量 位 于 底部 。x 轴 表 示 SHAP 值 ， 衡 量 了 每 个 变 


表 2 Lasso 回归 候选 变量 赋值 表 


Table 2 Lasso regression candidate variable assignment table 


变量 赋值 
CAS 否 =0， 是 =1 
性 别 男性 =1， 女性 =2 
民族 汉族 =1， 其 他 民族 =2 
受 教育 程度 初中 及 以 下 =1， 高 中 及 以 上 =2 
吸烟 史 从 不 吸烟 =1， 曾 经 吸烟 =2， 当 前 吸烟 =3 
饮酒 史 从 不 饮酒 =1， 曾 经 饮酒 =2， 当 前 饮酒 =3 
高 血压 否 =0, 是 =1 
糖尿 病 下 =0， 是 =1 
代谢 综合 征 否 =0, 是 =1 
脂 代谢 异常 下 =0,， 是 =1 
肾 功能 正常 =1， 下 降 =2 
高 血压 一 级 亲属 家 族 史 否 =0, 是 =1 
冠 心 病 一 级 亲属 家 族 史 否 =0, 是 =1 
糖尿 病 一 级 亲属 家 族 史 否 =0, 是 =1 


A 8 6 4 2 


log 入 


图 1 
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量 对 模型 识别 的 贡献 大 小 。 正 值 表示 增加 识别 结果 的 可 
能 性 , 负 值 表示 减 小 识别 结果 的 可 能 性 。 通过 这 个 图 表 ， 
可 以 清晰 地 了 解 每 个 变量 对 CAS 识别 的 影响 。 点 的 颜 
色 代 表 了 变量 的 原始 值 , 红色 代表 高 值 , 蓝 色 代表 低 值 。 
这 就 可 以 直观 地 观察 变量 的 原始 值 与 其 对 模型 识别 的 影 


表 3 Lasso 回归 的 系数 和 入 min 值 


Table 3 Coefficients and 入 min values of Lasso regression 


变量 系数 入 min 
年 龄 0.026 33 0.019 59 
BMI -0.001 48 
SBP 0.002 48 
吸烟 0.078 77 
饮酒 0.003 89 

高 血压 0.000 02 

TC 0.000 50 

HDL-C 0.000 13 
CRP 0.001 84 
FPG 0.001 27 
ApoB 0.019 14 
LPA 0.000 16 
AST 0.000 79 

AST/ALT 0.004 44 

ACR 0.000 13 


表 4 各 模型 在 验证 集中 的 判别 性 能 


Table 4 Discriminative performance of each model on the validation set 


模型 灵敏 度 ”特异 度 ”准确 度 “Fl 值 AUC 
Logistic 回归 0.6939 0.8000 0.7500 0.7234 0.8367 
RF O75 One 07m2 OS v801 
SVM 0.7143 0.8182 0.7692 0.7447 0.8419 
XGBoost 0.7347 0.8182 0.7788 0.7579 0.8330 
GBDT 0.7551 0.8364 0.7981 0.7789 0.8349 


注 : RF= 随机 森林 ,SVM= 支持 向 量 机 ,XGBoost= 极端 梯度 增强 ， 


GBDT= 梯度 增强 决策 树 ，AUC= 曲线 下 面积 。 


36 36 36 36 36 34 33 33 31 25 20 1610 64111 
0256 5 


log 入 


注 : A 为 36 个 变量 的 Lasso 系数 分 布 图 ; B 为 Lasso 回归 模型 中 最 佳 参数 ( 入 ) 的 选择 采用 最 低 标准 的 10 倍 交叉 验证 ， 绘 制 二 项 偏差 与 
log 和 的 关系 曲线 ， 在 最 小 标准 和 最 小 标准 的 1 标准 差 最 优 值 处 画 虚 线 垂 


直线 。 
采用 Lasso 回归 进行 输入 变量 的 筛选 


Figure 1 Variable selection using lasso regression for input variables 
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注 : RF= 随机 森林 ，SVM= 支持 向 量 机 ，XGCBoost= 极端 梯度 增强 ， 
GBDT= 梯度 增强 决策 树 。 
2 各 模型 在 验证 集中 识别 CAS 的 ROC 曲线 


Figure 2 ROC curves of each model for identifying CAS on the validation 


Set 


响 之 间 的 关系 。 结 果 显 示 ， 变 量 重 要 性 排序 前 5 名 依次 
为 年 龄 、SBP、CRP、LPA、ApoB， 图 3B 显示 随 着 变量 
的 升 高 而 增加 了 CAS 发 后 的 风险 。 


3 讨论 


本 研究 结果 显示 FRS 中 高 风险 群体 中 未 识别 出 
CAS 的 个 体 占 比 为 52.6%, 与 先前 的 研究 结果 相似 ““， 
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ACR 
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A 平均 SHAP 值 
注 : A 为 最 优 模型 根据 SHAP 平均 值 排序 的 变量 重 


益 
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提示 根据 FRS 识别 CAS 准确 性 不 足 。 为 了 提高 FRS 中 
高 风险 群体 CAS 早期 识别 的 准确 性 ， 本 研究 构建 了 该 
群体 CAS 的 风险 预测 模型 ， 并 筛选 出 最 优 模型 ， 更 准 
确 地 识别 CAS， 以 优化 个 体 的 预防 和 治疗 策略 ,减轻 医 
疗 负 担 ， 避 免 医 疗 资源 浪费 。 

本 研究 基于 机 融 学 习 运 用 Losgistic 回归 、RF、 
SVM、XGBoost 和 GBDT 算法 构建 了 5 个 预测 模型 。 
全 部 模型 的 AUC 值 均 较 高 ， 其 中 GBDT 模型 的 综合 判 
别 效能 最 优 (灵敏 度 =0.755 1， 特 异 度 =0.836 4， 准 确 
度 =0.798 1，Fl 值 =0.778 9，AUC=0.834 9) ， 与 同类 
型 的 研究 “2 231 相 比 ， 该 模型 被 认为 是 具有 较 高 精度 的 
预测 模型 ; 在 外 部 验证 中 也 展现 出 了 较 强 的 泛 化 能 

( AUC=0.794 0) 。GBDT 算 法 是 机 器 学 习 方法 之 一 ， 
也 称 为 多 元 加 性 回归 树 ， 比 Logistic、 决 策 树 和 RF 算 
法 具有 更 准确 的 识别 能 力 和 复杂 的 算法 '*1， 具有 许多 
非 线 性 变换 和 扎实 的 表现 能 力 ， 不 需要 复杂 的 特征 工 
程 和 变换 '”|。GBDT 模型 被 广泛 运用 于 疾病 的 识别 ， 
均 表现 出 较 好 的 判别 性 能 。WU 等 "运用 XGBoost、 
GBDT、RF 和 SVM 四 种 机 器 学 习 方 法 构建 在 无 症状 人 
群 中 颈 动 脉 斑 块 识别 模型 ，GBDT 模型 AUC 为 0.8367， 
具有 较 高 的 判别 性 能 。YE 等 '” 利用 重症 监护 医学 信 
息 数 据 库 (MIMIC ) IV 数 据 库 中 患者 的 生命 体征 和 实验 
室 检 查 等 多 项 指标 ， 建 立 了 基于 机 楷 学 习 的 慢性 肾脏 疾 
病 合并 冠状 动脉 疾病 的 重症 监护 病房 患者 的 住院 死亡 率 
的 预测 模型 ， 其 中 最 优 模型 为 CGBDT 模型 ，AUC 可 达 
0.946。LIU 等 '” 基于 人 工 智能 构建 心肌 梗死 风险 预测 
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B 
性 图 ，B 为 对 变量 重要 性 排序 ， 并 展示 了 变量 对 结局 产生 了 何 种 影响 ;SBP= 收缩 压 ， 


CRP=C- 反应 蛋白 ，LPA= 脂 蛋白 a，ApoB= 载 脂 蛋 白 B，HDL-C= 高 密度 脂 蛋 白 胆固醇 ，TC= 总 胆固醇 ，AST= 天 冬 氨 酸 氨 基 转 移 酶 ，AST/ALT= 


天 冬 氨 酸 氨基 转移 酶 / 丙 氨 酸 氨基 转移 酶 ，ACR= 尿 微量 白 蛋 白 肌 醋 比值 ，FPG= 空腹 血糖 。 


3 ”最 优 模型 可 视 化 解释 


Figure 3 Visualization of interpretation for the optimal model 


(CI 上 > 中国 全 科 医 学 庆 琶 和 


模型 ， 用 于 预警 住院 患者 心肌 梗死 的 发 生 ， 其 中 GBDT 
模型 为 最 优 模型 ，AUC 为 0.91。LIU 等 '” 利用 机 器 学 
习 方 法 构建 急性 胰腺 炎 患 者 脓 毒 症 风 险 预 测 模 型 ， 并 将 
最 优 模型 GBDT 模型 与 Logistic 回归 模型 和 评分 系统 进 
行 比较 ， 显 示 判 别 性 能 优 于 Logistic 回归 模型 和 评分 系 
统 。SU 等 '” 使 用 机 器 学 习 方法 结合 纵向 数据 来 预测 
中 国 老年 人 2 年 内 慢性 肾脏 疾病 发 展 的 风险 ，GBDT 模 
型 表现 出 较 好 的 判别 性 能 。 

本 研究 通过 SHAP 方法 对 GBDT 模型 进行 可 视 化 解 
释 ， 对 模型 判别 性 能 影响 排名 前 5 名 的 变量 依次 为 年 
龄 、SBP、CRP、LPA、ApoB， 同 时 也 表明 年 龄 小 、 低 
SBP、 低 CRP、 低 LPA 和 低 ApoB 可 以 降低 CAS 发 生 的 
风险 。 张 萍 等 人 研究 表明 随 着 年 龄 增长 ， 动 脉 管 壁 结构 
的 胶原 纤维 和 弹力 纤维 比例 失调 ， 导 致 动脉 壁 增 厚 、 顺 
应 性 降低 ， 加 上 一 些 疾病 引起 的 血管 内 皮 功 能 障碍 和 结 
构 异 常 ， 促 使 痢 样 硬化 的 发 生 '” 。 唐 将 等 "2 也 发 现 
年 龄 是 颈 动脉 斑 块 形成 的 危险 因素 ， 随 着 年 龄 的 增加 
CAS 斑 块 也 明显 提升 ， 并 且 不 少 研 究 也 视 其 为 独立 危 
险 因 素 。 有 研究 表明 高 血压 患者 中 CAS 发 生 率 更 高 ， 
且 SBP 升 高 更 为 明显 1。 以 往 的 研究 表明 ， 即 使 没 
有 其 他 CVD 危险 因素 存在 ， 炎 症 仍然 能 够 引发 CAS 的 
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本 研究 所 构建 CAS 风险 预测 模型 的 特征 变量 为 公共 卫 
生 服 务 项 目 所 包含 的 检测 指标 ， 容 易 获取 ， 增 加 了 模型 
的 实用 性 ， 同 时 可 以 提高 基层 医疗 人 员 识 别 CAS 的 简 
便 性 和 准确 性 ， 这 有 助 于 早期 识别 并 在 病情 恶化 之 前 采 
取 有 效 的 预防 和 治疗 策略 ， 提 高 患者 的 生活 质量 ， 同 时 
通过 减少 CAS 引起 的 心血 管事 件 ， 有 望 带 来 显著 的 社 
会 经 济 效益 , 减轻 医疗 负担 , 提高 健康 资源 的 利用 效率 。 
本 研究 存在 一 定 的 局 限 性 : 首先 ， 采 用 方便 抽样 方 
法 ,存在 着 一 定 的 选择 偏 傈 ; 其 次 ， 女 性 占 比 偏 高 ， 可 
能 与 男性 多 在 外 地 工作 有 关 ; 再 者 ， 人 研究 对 象 缺少 相关 
服药 情况 ， 可 能 会 对 人 研究 结果 造成 一 定 的 影响 ; 最 后 ， 
研究 对 象 大 多 来 源 于 乡镇 地 区 ， 对 研究 结果 外 推 有 一 定 
的 影响 。 

综 上 所 述 ， 本 研究 通过 Lasso 回归 筛选 出 与 CAS 相 
关 的 特征 变量 ， 构 建 基于 Logistic 回归 、RF、SVM、 
XGBoost 和 GBDT 的 FRS 中 高 风险 群体 CAS 预测 模型 ， 
通过 灵敏 度 、 特 异 度 、 准 确 度 、F1 值 和 AUC 值 这 5 
个 评价 指标 综合 评估 判别 性 能 ， 结 果 表 明 GBDT 模型 
识别 CAS 的 效果 最 佳 ， 同 时 具有 较 强 的 泛 化 能 力 ; 运 
用 SHAP 方 法 对 GBDT 模 型 进行 可 视 化 解释 ， 年龄 、 
SBP、CRP、LPA、ApoB 是 对 模型 判别 效能 最 重要 的 变量 ， 


形成 。 高 水 平 的 炎症 可 能 导致 内 皮 通 透 性 的 过 度 增 
加 ， 这 表示 内 皮 屏 障 的 完整 性 受到 破坏 。 受 损 的 内 皮 细 
胞 通过 进一步 表达 黏附 分 子 和 趋 化 因子 ， 使 白细胞 能 够 


同时 也 是 CAS 的 危险 因素 。 这 一 研究 成 果 有 望 帮助 基 
层 医疗 人 员 进 行 更 准确 的 评 佑 ， 提 高 CAS 的 识别 和 治 
疗 覆 盖 率 ， 有 助 于 合理 分 配 医疗 资源 ， 并 为 FRS 中 高 


在 内 皮 上 深 动 、 附 着 并 最 终 进入 血管 壁 ， 从 而 促进 了 血 
管 壁 炎症 的 发 展 ' ”i 。 研 究 表明 ，LPA 与 颈 动 脉 粥 样 硬 
化 斑 块 发 生 关 系 密切 ， 作 用 机 理 主 要 与 胆固醇 代谢 以 及 
纤维 蛋白 水 解 作 用 相关 ; 高 LPA 患者 心肌 梗死 和 冠 心 
病 发 病 率 高 于 健康 人 ， 脑 动脉 硬化 患者 LPA 不 仅 显 著 
高 于 健康 人 ， 还 和 病变 的 程度 密切 相关 ”| 。 一 项 包 
括 8 项 队列 和 4 项 病例 对 照 研究 的 蔡琳 分 析 得 出 结论 ， 
ApoB 水 平 升 高 是 首次 缺 血 性 卒中 的 危险 因素 上 。 本 
研究 结果 与 上 述 研究 结果 一 致 , 与 临床 实践 也 基本 一 致 ， 
说 明 本 研究 所 构建 的 CBDT 模型 具有 较 强 的 合理 性 。 

基层 医疗 卫生 机 构 是 实现 当地 群众 就 近 就 医 、 方 便 
就 医 的 首要 环节 ， 直 接 面 对 当地 群众 的 医疗 服务 和 卫生 
需求 ; 同时， 基层 医疗 卫生 机 构 也 是 初级 医疗 卫生 保 
健 服务 的 主要 提供 者 ， 发 挥 着 医疗 费用 “守门 人 ”和 
居民 健康 管理 的 重要 作用 ， 并 向 确 有 专科 转 诊 需要 的 首 
诊 患 者 提供 专业 性 的 建议 '* 。 有 研究 表明 ， 心 脑 血管 
疾病 患者 的 门诊 治疗 费用 在 家 庭 卫 生 支 出 中 占 比 高 达 
44.05%， 超 过 了 所 有 疾病 治疗 费用 在 家 庭 卫 生 支 出 中 所 
占 的 比例 (34.85% ) ， 心 脑 血管 疾病 患者 门诊 治疗 费用 
负担 相对 较为 沉重 ， 因 此 为 了 控制 医疗 费用 和 减轻 疾病 
经 济 负担 ， 有 必要 将 心 脑 血 管 疾病 列 为 未 来 疾病 预防 和 
控制 的 重点 。 早 诊 早 治 是 心 脑 血管 疾病 防治 的 关键 ， 


风险 群体 CAS 的 早期 干预 提供 科学 依据 ， 进 一 步 改 善 
基层 居民 心血 管 健康 、 提 高 医疗 服务 水 平 以 及 促进 社会 
公共 卫生 。 在 未 来 的 研究 和 实践 中 ， 建 议 进一步 验证 和 
拓展 模型 的 适用 性 ， 以 确保 其 在 不 同人 群 中 的 有 效 性 。 
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